Data Science by ODS ai 🦜 Telegram Web

🔪 ИИ, работай — а то…

Неожиданное признание сооснователя Google на конференции в Майами взорвало профессиональное сообщество. Оказывается, языковые модели действительно показывают более высокое качество ответов под воздействием «угроз физической расправы» — и это касается не только продуктов Google.

Механизм связан с техниками джейлбрейкинга, где агрессивные формулировки заставляют модель обходить встроенные ограничения. Парадокс в том, что попытки взломать защиту одновременно улучшают базовую производительность системы — побочный эффект, который разработчики предпочитают не афишировать.

Признание ставит индустрию перед выбором: либо эксплуатировать обнаруженную особенность для повышения эффективности, либо полностью блокировать подобные воздействия. Пока что побеждает второй подход — OpenAI уже запустила программы поиска уязвимостей в своих моделях.

#ИИ #Уязвимости #Джейлбрейк

@SecLabNews

Please open Telegram to view this post

VIEW IN TELEGRAM

SecurityLab.ru

Угроза вместо «спасибо»: Брин нашёл способ заставить ИИ стараться

Человечество опять ошиблось в воспитании.

2.8K views10:57

Data Science by ODS.ai 🦜

Forwarded from Новости IT | Вашу Цифру!

GOOGLE ПОЛНОСТЬЮ СИИХНУЛСЯ
галлюциногены теперь – для всех!

Англосакские газетки обожают писАть т. н. human-touch заметки. A La "как я это cделал" или "исповедь кающегося грешника". Одну такую – рассказ пользователя о чудесах недавнего внедрения Google-фичи общего (генеративного) искусственного иннтелелккта (ОИИ) во все (кажется дюжину), его базовые сервисы в США.

СПОЙЛЕР. Новый ИИ-поиск в Америке стал общедоступным. Но работать с платформой теперь нужно с крайней осторожностью. ОИИ-режим справляется с поиском товаров для онлайн-покупок. Но ему почти недоступны базовые поисковые функциями в сети.

Вот рассказ некого щирого чайно-американца Брайана X. Чена, решившегося на благородный эксперимент – проверить "умный" Google на себе самом.

«На неделе я попросил Google помочь спланировать день рождения дочери, найдя парк в Окленде (Калифорния, США) со столиками для пикника. Тот сгенеририл список парков поблизости, я отправился на разведку в два из них – и обнаружил, что на самом деле столиков там нет.
"Только что был там, - написал я Google. - и столов не увидел". Google признал ошибку и выдал еще один список, в который вновь входил один из парков без столов.

Я повторил эксперимент, попросив Google найти доступную автомойку поблизости. Google указал услугу за $25, но когда я приехал, автомойка стоила $65. А еще я попросил Google найти гастроном, где можно купить экзотическую перцовую пасту. В списке оказался соседний Whole Foods. Стоит ли говорит, что нужного мне товара там тоже не было.

Тестируя новый режим AI Mode похожий на чат-ботов ChatGPT и Gemini, я специально не запрашивал у Google традиционный веб-поиск. AI Mode, который запустят вслед за США по всему миру в ближайшие недели, скоро появится в виде вкладки рядом с результатами Google-поиска. Будьте осторожны!»

Десятилетий веб-поиск включал поиск ключевых слов, таких как "самые надежные автомобили" и пр. Появление AI Mode натужно, но явно намекает, что ОИИ-вскоре полностью перехватит поиск чего-либо в сети.

Теперь с фичей, управляющей чат-ботами с помощью сложных языковых моделей (LLM), угадывающих (именно так, ВЦ!), связь слов друг с другом, вроде как, можно вводить более короткие или гораздо более сложные запросы. И получать, например, диаграмму сравнительных параметров пяти самых надежных седанов года.

В прошлом году Google (вслед за всеми ИИ-активистами, давно предсказывавшими скорого путешествие глобального поисковика на свалку истории), заявила, что ОИИ-режим – новый рубеж поиска. Дополняющий, хотя пока не заменяющий, традиционный.
"Мы честно хотим сделать ИИ-режим лучшим в новом классе точных юзерских запросов", – крутился на днях на пупе главный по поисковым продуктам топ Google Робби Стайн.

ВАШУ ЦИФРУ, восклицает в итоге Чен! Для начала Google. com и все его коллеги-конкуренты делают ОИИ-сервис таким, чтобы он мгновенно стал для юзера абсолютно неизбежен. Meta добавила чат-бота Meta AI в Messenger, WhatsApp и Instagram, а Microsoft разом интегрировала ОИИ в поисковик Bing и свои новейшие компы Surface.

Рекламируемая "уникальность" режима ИИ – в том, что для ответа ОИИ объединяет данные всей "империи" интернет-сервисов Google: самого поисковика, локаций на Google Maps, сведений о недавних запросах и покупках, советы друзей, отзывы профи и т. п.
"Но результат всегда неточен – с попаданиями и промахами", – свидетельствует американский китаец Брайан и призывает использовать ОИИ-режим с крайней осторожностью. Возможно ОИИ даже приблизит скорый и бесславный конец главного мирового поисковика

2.8K views11:11

Data Science by ODS.ai 🦜

Forwarded from AI.Insaf

Вчера сходил на Датафест в Avito. Ожидаемо, основной фокус был на LLM и рекомендациях

По докладам:
1. Самый сильный доклад - про post-training LLM и библиотеку torchtune (реализованы SFT, DPO, PPO и т. д. без обёрток Hugging Face), в которую сам докладчик контрибьютит. Берём Llama (вроде бы 7B, batch_size=2) с QLoRA`й - обучение займёт 358 минут с пиком потребления памяти 7 ГБ. Добавим Compile, packing батчей, FlexAttention — и время обучения уменьшится до 36 минут, но какой ценой: потребление памяти вырастет до 40 ГБ (x6),. Можно ещё добавить Context Parallel и улететь в космос с пиками потребления до 70 ГБ.

2. Несколько докладов по продуктовому применению LLM в Avito и Т-Банке (например разметка звонков, чатов на факт сделки и т. д.). Общий подход - максимально очистить выборку и согласовать инструкцию к разметке, добившись консистентности разметки, т. е. чтобы разные люди размечали одинаково. Далее - максимально понятный LLM workflow, так чтобы задача решалась итерационно; если контекст сильно растёт, добавляем RAG. При этом в одном из кейсов Avito для RAG зашла комбинация BM25, LLM, BERT и реранкера из RoBERTa. PS Агентов еще не завезли

3. Дообучение LLM в Avito. Дообучали (DPO) лёгкие 7B модели (Qwen) - получили небольшие приросты метрик, которые нивелируются релизами новых опенсорсных моделей. Ключевой эффект - в дообучении своего токенизатора с фокусом на русский язык (+31% к скорости инференса).

4. Рекомендации на главной Avito: ретривал на трансформерах с позиционными эмбедингами товаров (кликов и просмотров) + ranking на CatBoost. Вся эта история даёт 50% просмотров и 30% кликов по объявлениям. Из интересного - добавление блендера, чтобы в бесконечной ленте были товары из разных категорий

5. Большая дискуссия про важность ML-соревнований. В конце спикеры сошлись на том, что если результат соревнования/хакатона определяется местом на лидерборде, то презентации не стоит учитывать (важен результат, а не то, как он достигнут). Эх, не зря ругают звездолёты кагглеров

6. Инсайды с обсуждений вне докладов - chatgpt любит некоторые буквы заменять на редкие аналоги, которые выглядят так же, чтобы потом можно было бы определить что текст сгенерирован. Плюс наличие нового абзаца с двух пробелов или использование длинного тире - текст сгенерирован, тк такое человек не использует

P.S. На квизе вспомнили про Bimorph - вот так становятся легендой. Пик одс в 2019г и я там был, сейчас нашел статью на хабре, но те обсуждения под 1к сообщение в слаке уже не найти 🫡

P.S2 На фото - вид с веранды офиса, красивое

2.7K views10:18

Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

✔️

13 полезных MCP-серверов, которые стоит попробовать

MCP (Model Context Protocol) меняет то, как ИИ-модели и агенты взаимодействуют с инструментами.

1. Agentset MCP
🔗 https://github.com/agentset-ai/mcp-server
Быстрое создание интеллектуальных приложений на основе документов (RAG) с open-source платформой Agentset.

2. GitHub MCP Server
🔗 https://github.com/github/github-mcp-server
Интеграция с API GitHub — можно строить ИИ-инструменты, работающие с экосистемой GitHub.

3. arXiv MCP
🔗 https://github.com/andybrandt/mcp-simple-arxiv
Работа с научными статьями arXiv: поиск, метаданные, аннотации, ссылки — всё через MCP.

4. MCP Run Python
🔗 https://github.com/pydantic/pydantic-ai/tree/main/mcp-run-python
Запуск Python-кода в песочнице через Pyodide (Deno). Полная изоляция от ОС.

5. Safe Local Python Executor
🔗 https://github.com/maxim-saplin/mcp_safe_local_python_executor
Безопасный локальный запуск Python-кода, сгенерированного LLM, через LocalPythonExecutor (от smolagents).

6. Cursor MCP Installer
🔗 https://github.com/matthewdcage/cursor-mcp-installer
Автоматическое добавление MCP-серверов в редактор Cursor — удобно для разработчиков.

7. Basic Memory
🔗 https://memory.basicmachines.co/docs/introduction
Система управления знаниями: создаёт устойчивый семантический граф из диалогов ИИ-агентов.

8. Filesystem MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/HEAD/src/filesystem
Чтение, запись, поиск файлов, создание, удаление и перемещение директорий — всё через MCP.

9. Notion MCP Server
🔗 https://github.com/makenotion/notion-mcp-server
Позволяет моделям управлять вашим рабочим пространством в Notion: поиск, чтение, создание и обновление страниц и баз.

10. Markdownify MCP Server
🔗 https://github.com/zcaceres/markdownify-mcp
Конвертирует PDF, изображения, аудио и веб-страницы в Markdown.

11. Fetch MCP Server
🔗 https://github.com/modelcontextprotocol/servers/tree/main/src/fetch
Позволяет LLM извлекать данные с веб-страниц и автоматически преобразовывать HTML в Markdown.

12. Mobile Next MCP Server
🔗 https://github.com/mobile-next/mobile-mcp
Взаимодействие с iOS/Android-приложениями: распознавание UI по скриншотам, автоматизация кликов.

13. MCP Installer
🔗 https://github.com/anaisbetts/mcp-installer
Шутливо, но по делу: «MCP для установки MCP». Модель сама ставит MCP-серверы из npm и PyPi по вашему запросу.

🧠 Вывод:
MCP-серверы — это мост между LLM и реальными действиями: код, браузер, мобильные приложения, знания, GitHub, файлы.
Их можно комбинировать в цепочки, расширять ассистентов, строить автономные агенты.

@data_analysis_ml

#ml #ai #MCP

Please open Telegram to view this post

VIEW IN TELEGRAM

2.7K views06:10

Data Science by ODS.ai 🦜

Forwarded from LLM Arena

⚡️ DeepSeek наносит ответный удар!

Китайский DeepSeek тихо представил обновленную версию своей революционной модели искусственного интеллекта - DeepSeek R1-0528.

Что нового в обновлении?

🩵Улучшенные возможности рассуждения — модель демонстрирует еще более продвинутые способности к логическому мышлению и решению сложных задач.
🩵Снижение галлюцинаций — значительно повышена точность и надежность ответов.
🩵Оптимизация размера — модель стала на 80% компактнее, что делает ее доступной для локального использования даже на одной GPU.
🩵Улучшенная производительность в кодинге — R1-0528 показывает выдающиеся результаты на LiveCodeBench, превосходя конкурентов.

🩵Попробуйте ее прямо сейчас на LLM Arena и сравните с другими моделями: llmarena.ru

Please open Telegram to view this post

VIEW IN TELEGRAM

2.7K views14:04

Data Science by ODS.ai 🦜

Forwarded from CV Time

Improving the Diffusability of Autoencoders

Сегодня разбираем статью, в которой обсуждается то, что авторы называют diffusability латентного пространства: насколько легко диффузионной модели учиться на латентах автоэнкодера.

В латентных диффузионных моделях (например, Stable Diffusion) генерация происходит не в пикселях, а в сжатом представлении. Это ускоряет обучение, но вводит зависимость от свойств автоэнкодера. Обычно смотрят только на качество реконструкции: насколько хорошо декодер восстанавливает изображение. Но есть вторая характеристика — diffusability, и именно её авторы рассматривают в этой работе.

Что такое diffusability и почему это важно

Если латенты имеют сложное распределение или содержат неинформативные шумовые компоненты, диффузии приходится подстраиваться под это распределение — обучаться дольше и потенциально упираться в потолок качества. Поэтому автоэнкодер задаёт не только качество реконструкции, но и удобство обучения вместе с последующей генерацией.

Авторы смотрят на латенты от обычных автоэнкодеров и замечают, что они визуально шумные: в них много высокочастотных деталей, особенно в фоне. Чтобы разобраться, применяют дискретное косинусное преобразование (DCT), как в JPEG. Разбивают картинку или латент на блоки 8×8, считают DCT по каждому из них, усредняют спектры и строят частотный профиль.

Выясняется, что латенты содержат больше высокочастотных компонентов, чем изображения, и это особенно заметно при увеличении числа каналов. Даже если латент визуально похож на картинку, его частотный профиль сильно отличается. А если обнулить высокие частоты и попробовать восстановить изображение, латент теряет качество гораздо сильнее, чем обычное изображение — там такие потери почти незаметны. Это говорит о том, что латенты слишком зависят от высокочастотной части и не обладают масштабной эквивариантностью.

Тогда авторы добавляют к лоссу автоэнкодера простую компоненту: берут исходное изображение и соответствующий латент, уменьшают их разрешение (в 2 или 4 раза), затем реконструируют картинку из сжатого латента и считают дополнительный лосс между даунскейленным изображением и полученной реконструкцией.

Таким образом они обеспечивают соблюдения свойства масштабной инвариантности (потому что лосс буквально это и делает), что, в свою очередь, регуляризует латенты, убирая из них лишние высокие частоты.

Результат — латенты становятся менее шумными, частотные профили ближе к тем, что у изображений. И, что важно, визуально структура латента сохраняется. Согласно метрикам, качество реконструкции почти не падает.

Эксперименты

Метод протестировали на ImageNet-1K (изображения) и Kinetics-700 (видео). Сравнивали обучение диффузионной модели на обычных и исправленных латентах.

В статье diffusability измеряют через скорость обучения: берут автоэнкодер, обучают на нём диффузионную модель и смотрят, насколько быстро растёт метрика качества (например, FID для изображений и FVD для видео). Сравнивались базовые модели и те же архитектуры, но обученные на автоэнкодерах с исходным и улучшенным diffusability. Оказалось, что последние учатся быстрее и дают лучшее финальное качество.

Результаты:
— генерация изображений: FID улучшился на 19%;
— генерация видео: FVD улучшился на 44%;
— модели обучаются быстрее;
— PSNR немного растёт (за счёт блюра), но визуально картинки выглядят нормально.

Визуализация того, как выглядят латенты до и после (см. картинку), взята из другой работы, посвященной этой же теме: шум действительно уходит, но структура остаётся. Частотные кривые тоже приближаются к тем, что у изображений.

В целом статья посвящена довольно локальной проблеме, но в ней есть понятная идея и измеримый эффект.

Разбор подготовил ❣ Сергей Кастрюлин
CV Time

Please open Telegram to view this post

VIEW IN TELEGRAM

2.0K views17:54

Data Science by ODS.ai 🦜

Forwarded from Machinelearning

Please open Telegram to view this post

VIEW IN TELEGRAM

1.9K views11:33

Data Science by ODS.ai 🦜

Forwarded from Anton Alekseev | Инфраструктура для AI и ML

Тензерирование или быстрая загрузка весов моделей в GPU

Раскроем подробнее что такое Тензерирование - это способ сериализации и десериализации весов модели, что позволяет сократить время загрузки весов в GPU. Также позволяет загружать веса в S3, добавить шифрование, уменьшить время старта инференса и нагрузку на CPU.

Истоки - Проект CoreWeave

Как добавили в VLLM

Как использовать в VLLM

Пример скрипта сериализации/десериализации. В комментах подробные инструкции как пользоваться.

Результаты тестирования
Замерял время загрузки весов из local path в GPU во время старта VLLM

Qwen3-8b
A100 40gb x1
веса размером 15.2683 GiB
tensorize vs default
5.435905 sec vs 34.538318 sec

пример конфига для vllm


{
    "model":"Qwen/Qwen3-8B",
    "load_format": "tensorizer",
    "model_loader_extra_config": {"tensorizer_uri": "/root/models/ser-qwen-from-local/vllm/qwen_hf/v1/model.tensors"}
}

Разница в 7 раз

Qwen3-32b
A100 40gb x2 при tensor-parallel-size 2
Веса размером 30.5855 GiB
tensorize vs default
118.667568 sec vs 307.285575 sec

пример конфига для vllm


{
"model":"Qwen/Qwen3-32B",
"load_format": "tensorizer",
"model_loader_extra_config": {
"tensorizer_uri": "/root/models/ser-qwen-32-from-local/vllm/qwen_32/v1/model-rank-%03d.tensors"
},
"tensor_parallel_size": 2,
"disable_log_requests": "true",
"gpu_memory_utilization": 0.9,
"max_model_len": 5024
}

Разница в 3 раза

Загружаются веса действительно в разы быстрее. У кого стоит задача уменьшить время загрузки весов в GPU - рекомендую присмотреться к этому способу!

2.4K views10:38

Data Science by ODS.ai 🦜

Forwarded from Анализ данных (Data analysis)

🍏

Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач

Apple внезапно опубликовала исследование, которое разоблачает популярные LLM с "цепочкой размышлений" (Chain-of-Thought) — такие как Gemini 2.5 Pro, OpenAI o3 и DeepSeek R1.

📌 Что тестировали?
Логические задачи:
• башни Ханоя (100+ шагов!)
• загадка про волка, козу и капусту
• головоломки с правилами и условиями

И всё это — с усложнением.

💥 Результаты:

— 🔁 Модели не думают, а вспоминают
Они не решают задачу шаг за шагом, а ищут похожие примеры в своей базе знаний. Это имитация мышления, а не само мышление.

— 🤯 "Переосмысление" вредит
Если задача простая, модель находит верный ответ — и… продолжает «думать» дальше, усложняя всё и случайно портя решение.

— 🧠 Больше размышлений ≠ лучше результат
Дать больше токенов и времени на размышления не помогает. На сложных задачах модели просто сдаются быстрее. Даже "бесконечный" бюджет не спасает.

— 🧪 Few-shot примеры не работают
Даже если расписать пошаговое решение и дать примеры — модель всё равно ломается, если задача ей незнакома.

— 🏗 Модели обожают Ханой, но ненавидят загадки
Башни Ханоя решаются идеально даже на 100+ шагов.
А вот в простой задаче с козой и капустой — модели сдаются на 4-м шаге. Почему? Ханой — в датасетах, загадки про реку — нет.

🧠 Почему LLM не справляются с Ханойскими башнаями при большом числе дисков

Модели вроде Sonnet 3.7, DeepSeek R1 и o3-mini не могут правильно решать башни Ханоя, если дисков больше 13 — и вот почему:

📏 Немного математики:

• Чтобы решить башни Ханоя, нужно минимум 2ⁿ − 1 ходов
• Один ход — это примерно 10 токенов (формат: «переместить диск X с A на B»)
• А значит, для 15 дисков нужно ~**327,670 токенов** только на вывод шагов

🧱 Лимиты моделей:

| Модель       | Лимит токенов | Макс. число дисков (без размышлений) |
|--------------|----------------|---------------------------------------|
| DeepSeek R1  | 64k            | 12  
| o3-mini      | 100k           | 13  
| Sonnet 3.7   | 128k           | 13

И это без учёта reasoning (внутренних размышлений), которые модель делает перед финальным ответом.

🔍 Что реально происходит:

• Модели не могут вывести все шаги, если дисков слишком много
• При >13 дисках они просто пишут что-то вроде:
> *"Из-за большого количества шагов я опишу метод, а не приведу все 32 767 действий..."*

• Некоторые модели (например, Sonnet) перестают "думать" уже после 7 дисков — они просто описывают алгоритм и переходят к финальному ответу без вычислений

🎲 А теперь представим, что модель угадывает каждый шаг с точностью 99.99%
На задаче с 15 дисками (32767 ходов) ошибка почти неизбежна — чистая математика:
даже 0.01% ошибок на токенах *экспоненциально* накапливаются

🍏 Интересно, что Apple выпустила это исследование за день до WWDC 2025.
Подколка конкурентам? А завтра, может, и своё покажут. 🤔

📎 Исследование: https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

@data_analysis_ml

#AI #LLM #AGI #Apple #WWDC2025 #PromptEngineering #NeuralNetworks

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views10:05

Data Science by ODS.ai 🦜

Forwarded from Белый хакер

Please open Telegram to view this post

VIEW IN TELEGRAM

1.3K views15:38

2025/06/11 09:34:17
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tg-me.com/buyppe/webview?embed=1" title="Telegram Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>